
人間の話し声は、有声音(調性を保った音またはフォルマント)と無声(U/V)音から構成されています。有声音は声帯が振動して出ますが、無声音は唇や舌、口蓋、喉、喉頭などで空気の流れを妨げて作るものです。
有声音と無声音が混ざった音声を分析信号としてボコーダーに与えても、その違いが合成エンジンに伝わらず、弱々しい人の声のようになってしまいます。このため、ボコーダーの合成セクションに何らかの工夫を加えて、有声音と無声音が区別されるようにする必要があります。
このため、EVOC 20 PolySynth には U/V ディテクターが組み込まれています。分析信号から無声音の部分を検出し、合成信号の対応する部分を雑音に置き換える、あるいは雑音と合成信号を重ねる、または元の信号と重ねるという処理を行います。U/V ディテクターが有声音を検出した場合は、その情報を合成セクションに伝え、有声音の部分については通常の合成信号をそのまま使います。
フォルマントは、サウンドの周波数スペクトルのピークです。人間の声に関して使われる場合、フォルマントは人間がさまざまな母音を区別するための主要要素であり、区別はこのサウンドの周波数にのみ基づきます。人間の話し声や歌声におけるフォルマントは、声道によって作られます。ほとんどの母音には、4 つ以上のフォルマントが含まれています。

「Sensitivity」ノブ:U/V 検出セクションの応答性を決めます。設定を高くするほど、入力信号の無声音の部分が認識しやすくなります。高い設定にすると無声音信号に対する感度が高まるため、U/V 音源が(有声音信号も含め)ほとんどの入力信号で使われることになります。その結果、ラジオ音声のように、頻繁に途切れて常に雑音が混ざっているような信号になってしまいます。U/V 音源は、モード・ポップアップ・メニューによって決まります。
「Mode」ポップアップメニュー:入力信号が無声音になっている部分を置き換える音源を選択します。
Noise:無声音の部分に雑音を補います。
N + Syn(Noise+Synth):無声音の部分に、雑音のほか、シンセサイザーで合成した音を加えて補います。
Blend:分析信号をハイパスフィルタに通して、無声音の部分に使います。この設定では、「Sensitivity」パラメータを調整しても何の影響もありません。
U/V の「Level」ノブ:入力信号が無声音になる部分に信号をどの程度加えるかを設定します。
重要:特に「Sensitivity」の値が大きい場合、EVOC 20 PolySynth の負荷が高くなりすぎないよう、「Level」ノブの設定に注意してください。